查看原文
其他

数据可视化 | 数据可视化实用干货分享

数据Seminar 2022-12-31

The following article is from 一个数据人的自留地 Author 数据人创作者联盟

本文转载自公众号一个数据人的自留地

一、数据可视化是什么

数据可视化,百科上的解释是指关于数据视觉表现形式的科学技术研究。简单说,就是使繁杂多项的数据转换成图或表,以一种更直观的方式展现出来。

二、可视化用途分类

1. 用途分类-比较

1、柱形图

说明:使用垂直或水平的柱子显示类别之间的数值比较;
适用:适合应用到分类数据对比,横置时也称条形图。
注意事项:柱形图数据条数不宜超过12条;条形图数据条数不宜超过30条;

2、雷达图

说明:将多个分类的数据量映射到坐标轴上,对比某项目不同属性的特点;
适用:了解同类别的不同属性的综合情况,以及比较不同类别的相同属性差异;雷达图还可以展示出数据集中各个变量的权重高低情况,非常适用于展示性能数据;

3、折线图

说明:折线图用于显示数据在一个连续的时间间隔或者时间跨度上的变化,它的特点是反映事物随时间或有序类别而变化的趋势;
适用:有序的类别,比如时间;

4、面积图

说明:面积图是在折线图的基础之上形成的, 它将折线图中折线与自变量坐标轴之间的区域使用颜色填充,颜色的填充可以更好的突出趋势信息;
适用:有序的类别,比如时间;
注意事项:需要注意的是颜色要带有一定的透明度,透明度可以很好的帮助使用者观察不同序列之间的重叠关系,没有透明度的面积会导致不同序列之间相互遮盖减少可以被观察到的信息;

5、南丁格尔玫瑰图

说明:南丁格尔玫瑰图是在极坐标下绘制的柱状图,使用圆弧的半径长短表示数据的大小(数量的多少);
适用:适合对比大小相近的数值;
特别说明:南丁格尔全名弗罗伦斯·南丁格尔,英国著名护士和统计学家;

6、词云

说明:词云,是文本数据的视觉表示,由词汇组成类似云的彩色图形,用于展示大量文本数据,能快速感知最突出的文字;
适用:适用于突出比较类的需求,比如关键词搜索;

2. 用途分类-构成

1、饼图

说明:饼图广泛得应用在各个领域,用于表示不同分类的占比情况,通过弧度大小来对比各种分类;
适用:适用于比较一个数据分类上各个模块的大小占比的需求;
注意事项:饼图不适用于多分类的数据,原则上一张饼图不可多于 9 个分类,因为随着分类的增多,每个切片就会变小,最后导致大小区分不明显,每个切片看上去都差不多大小,这样对于数据的对比是没有什么意义的。所以饼图不适合用于数据量大且分类很多的场景;

2、环形图

说明:环图本质是饼图将中间区域挖空;环图相对于饼图空间的利用率更高,比如我们可以使用它的空心区域显示文本信息,标题等;

3、堆叠柱状图

说明:堆叠柱状图将每个柱子进行分割以显示相同类型下各个数据的大小情况;
分类:
  • 堆积柱状图: 比较同类别各变量和不同类别变量总和差异;
  • 百分比堆积柱状图:适合展示同类别的每个变量的比例;

4、堆叠面积图

说明: 堆叠面积图和基本面积图一样,唯一的区别就是图上每一个数据集的起点不同,起点是基于前一个数据集的,用于显示每个数值所占大小随时间或类别变化的趋势线,展示的是部分与整体的关系;
适用: 堆叠面积图不适用于表示带有负值的数据集。非常适用于对比多变量随时间变化的情况;
分类:
  • 堆积面积图。同类别各变量和不同类别变量总和差异;

  • 百分比堆积面积图。比较同类别的各个变量的比例差异;

5、矩形树图

说明:矩形树图适合展现同一层级的不同分类的占比情况,还可以同一个分类下子级的占比情况,比如商品品类等;矩形树图由马里兰大学教授Ben Shneiderman于上个世纪90年代提出,起初是为了找到一种有效了解磁盘空间使用情况的方法;

3. 用途分类-分布

1、直方图

说明:直方图,又称质量分布图,是一种统计报告图,由一系列高度不等的纵向条纹或线段表示数据分布的情况;
适用:直方图是以矩形的长度表示每一组的频数或数量,宽度则表示各组的组距,因此其高度与宽度均有意义,利于展示大量数据集的统计结果;

2、分布曲线图

说明:分布曲线图展示的是一种概率分布,也是一种同统计学紧密结合的图表;

3、箱型图

说明:箱形图又称盒须图、盒式图或箱线图,是利用数据中的五个统计量:最小值、第一四分位数、中位数、第三四分位数与最大值来显示一组数据分布情况的统计图;
适用:适用于展示一组数据分散情况,特别用于对几个样本的比较;

4、热力图

说明:以特殊高亮的形式显示访客热衷的页面区域和访客所在的地理区域的图示。可以直观清楚地看到页面上每一个区域的访客兴趣焦点;

4. 用途分类-联系

1、散点图

说明:散点图也叫 X-Y 图,它将所有的数据以点的形式展现在直角坐标系上,以显示变量之间的相互影响程度,点的位置由变量的数值决定。通过观察散点图上数据点的分布情况,我们可以推断出变量间的相关性;
适用:适用于相关性分析,比如回归分析;

2、气泡图

说明:气泡图是一种多变量图表,是散点图的变体,也可以认为是散点图和百分比区域图的组合;
适用:适用于分类数据对比,相关性分析;
注意事项:气泡图的数据大小容量有限,气泡太多会使图表难以阅读。但是可以通过增加一些交互行为弥补:隐藏一些信息,当鼠标点击或者悬浮时显示,或者添加一个选项用于重组或者过滤分组类别。另外,气泡的大小是映射到面积而不是半径或者直径绘制的。因为如果是基于半径或者直径的话,圆的大小不仅会呈指数级变化,而且还会导致视觉误差。

3、桑基图

说明:桑基图(Sankey diagram),即桑基能量分流图,也叫桑基能量平衡图。一种特定类型的流程图,图中延伸的分支的宽度对应数据流量的大小,起始流量总和始终与结束流量总和保持平衡。
适用:适用于用户流量等数据的可视化分析。

三、可视化注意事项

1. 选择最高效的可视化图形

让用户可以一眼辨别出,从图表中快速获取我们想要传达的信息,不要让用户费力去对比太多东西。

2. 保持页面视觉交互的统一性

保持视觉的一致性,对于用户来说,同样的文字、状态、按钮,都应该触发相同的事情,遵从通用的平台惯例。

3. 合理使用零点基准线

如果图表需要重点突出对比数据的话,线性图表的坐标下限不一定必须从零点开始器。

4. 商业范畴内乱用红色

在商业范畴内,红色往往与损失紧密联系,绿色与盈余挂钩,因此要注意不要混淆使用红绿两色。

5. 慎用3D图表

在不涉及多维数据的情况下,避免过度设计,一般不适用3D、阴影,合理运用色彩同样能让图表显示的很高级,如果一定要使用3D图表,可以选取一个切面(正视,俯视,侧视)查看,避免数据被过分拉伸。

6.不要使用非水平和竖直的文字标注,也不要使用转行

不要用过于复杂的设计形式,数据可视化的第一要义是简单易懂,所以在遇到标签文字过长时,可以采用以下方法进行解决。

7. 排序连贯/均匀

图例的排序应和图表中的顺序保持一致;在轴上使用自然增量(0,5,10,15,20),而非不均匀的增量(0,3,5,16,50)。

8. 刻意的序列

在发布会中我们常常见到,为了突出自己产品的强悍,往往要与友商的数据做对比,在这种情况下,我们的数据也不是随机排布的,我给这种数据排布方法起了个名字,叫“刻意的序列”。

9. 切忌随意设置饼图起始角度

我们的阅读习惯是从12点钟方向顺时针开始的,所以,在制作饼图时,要调整最大的扇形从12点钟方向开始,并尽量按照面积从大到小进行排列,这样不仅方便别人阅读图表,更有利于清晰地呈现数据。

四、推荐书籍

《数据可视化》从研究者的角度,介绍数据可视化的定义、方法、效用和工具,既可作为初学者的领路手册,也可用于可视化研究和可视化工具使用的参考指南。
《鲜活的数据》是讲我们怎么把数据可视化,让大家更清晰地理解数据的含义;本书首先介绍了处理数据的方法和可视化的工具;然后分别从时间、比例、关系、差异、空间的角度介绍了可视化的方法;书中对于所有涉及代码地方的讲解都非常细致,比较适合数分、或者是初级视觉设计师,大家可以看下,浅尝辄止即可。





星标⭐我们不迷路!想要文章及时到,文末“在看”少不了!

点击搜索你感兴趣的内容吧


往期推荐


Stata绘图:回归系数可视化-论文更出彩

数据应用|《管理世界》!多源数据融合应用是王道

付定享优惠 转发得数据

数据资源 | 国外调查记者常用的16个数据网站

付定享优惠 转发得数据

数据资源 | 硕博常用的41个微观数据库

付定享优惠 转发得数据





数据Seminar




这里是大数据、分析技术与学术研究的三叉路口


推荐 | 彭绮荣


    欢迎扫描👇二维码添加关注    

点击下方“阅读全文”了解更多

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存